هادي ويسي h.veisi@ut.ac.ir دانشگاه تهران - دانشکده علوم و فنون نوين نیم سال اول 1392-1393
مقدمه انتخاب ويژگي ها روش پوشه )Wrapper( روش فیلتر )Filter( معیارهای انتخاب ویژگی )میزان اهمیت ویژگی( آزمون آماری تی :)T-test( توضیح و مثال معیارهای انتخاب ویژگی )مستقل بودن( استخراج ويژگي ها تحلیل اجزای اصلی )PCA( تحلیل تفکیک خطی )LDA( 2
ويژگي هرگونه مشخصه و معرف برای یک شی میتواند دادههای اسمی باشد مانند سبز زیاد و... میتواند عددی )پیوسته یا گسسته( باشد مانند مقدار ارتفاع بردار ویژگی Vector( :)Feature تعداد n مولفه از ویژگیها در یک بردار فضای ویژگی Space( :)Feature فضای nبعدی تعریف شده توسط بردار ویژگی نمودار پراکندگی Plot( :)Scatter نمایش هر بردار ویژگی در فضای ویژگی به صورت یک نقطه 3
ويژگي هاي خوب ایجاد تمایز بین دسته های مختلف و داشتن شباهت در یک دسته )Characteristic( تعداد اندک و مختصر باشد )Representative( قابل تفسیر به مفهوم موردنظر انسان باشد )Interpretable( برای کاربرد مورد نظر مناسب باشد )Suitable( ویژگی خوب مستقل از همدیگر باشند مولفههای وابسته افزونگی دارند )Independent( انواع... ویژگی بد 4
مثال هايي از تعداد ويژگي ها تشخیص چهره Recognition( )Face تعداد 786.432 ویژگی برای یک تصویر 1024*768 دستهبندی متون Classification( )Document برای واژگان 10.000 کلمهای هر مستند با یک بردار 10.000 بعدی توصیف میشود دسته بندی ژن ها تعداد ابعاد تا 60.000 بعد تعداد نمونهها اندک )چند ده مورد تا حدود 100( زياد بودن تعداد انرژي ها الزاما کارايي دسته بند را باال نمي برد 5
هدف: کاهش تعداد ويژگي ها با حفظ کارايي دسته بند روش هاي کاهش داده رگرسیون )Regression( یک مدل با تعداد محدودی پارامتر دادهها را مدل میکند مثال با یک خط )دو پارامتر( یا مدل AR آماره کافی statistics( )sufficient تابعی از دادهها )با تعدادی محدود پارامتر( که اطالعات اصلی آن دادهها را نگه میدارد هیستوگرام )Histogram( تقسیم دادهها به بازههایی )با طول برابر یا تعداد برابر( و نگهداری جمع )یا میانگین( آن دادهها خوشهبندی )Clustering( تقسیم داده ها در تعداد محدودی خوشه بر اساس شباهت و استفاده از نماینده خوشه برای بیان داده های ان خوشه نمونهبرداری )Sampling( برداشتن تعداد محدودی نمونه برای بیان کل داده ها 6
پردازش ويژگي ها انتخاب ویژگی: انتخاب زیرمجموعه ای ازویژگی های فعلی عدم تغییر ویژگی های اولیه حذف تعدادی از آنها انتخاب ویژگی d d! m m!( d m)! که m d تعداد کل ویژگیهای ممکن استخراج )تبدیل( ویژگی: استخراج تعدادی )کمتری( ویژگی از روی ویژگی های فعلی تغییر ویژگیهای اولیه خوشهبندی تبدیل تحلیل اجزای اصلی )PCA( 7
روش پوشه )Wrapper( معیار: ارزیابی ویژگیها بر اساس میزان دقت دستهبند انتخاب یک دسته بند دستهبندی )آموزش و آزمون( با زیرمجموعههای مختلف از ویژگیها انتخاب زیرمجموعه ای که منجر به دقت باالتری در دسته بند می شود روش فیلتر )Filter( روشی برای انتخاب ویژگی ها به صورت مستقل از دسته بند معیار: مستقل بودن ایجاد تمایز بیشتر )میزان اهمیت ویژگی( روشی بهتر و پرکاربردتر روش تعبیه شده) Embedded ( انتخاب ویژگی همزمان با ساخت دستهبند مانند درخت تصمیم 8
و( درس: بازشناسی آماری آلگو- آنتخاب و آستخرآج ویژگی )Embedded( روش هاي فیلتر پوشه Wrapper( تعبیه شده )Filter( دسته بند دسته بند Embedded دسته بند 9
... )Wrapper( روش پوشه چهار ویژگی: باد رطوبت دما و منظره تعداد 2 N زیرمجموعه برای N ویژگی محاسبات باال 10
روش پوشه )Wrapper(... انتخاب پیش رو ترتیبی )SFS: Sequential Forward Selection( اسم دیگر: Forward Selection شروع با مجموعه خالی از ویژگیها یافتن بهترین ویژگی بعدی )ویژگیای که در کنار ویژگیهای فعلی کارایی دستهبند را بهتر کند( اضافه کردن ویژگی مناسب انتخاب شده )در مرحله قبل( به مجموعه ویژگیهای انتخابی ادامه کار تا یافتن تعداد ویژگی موردنظر انتخاب پسرو ترتیبی Selection( )SBS: Sequential Backward اسم دیگر: Backward Elimination شروع با مجموعه تمام ویژگیها یافتن بدترین ویژگی بعدی )ویژگیای که با حذف آن از ویژگیهای فعلی کارایی دستهبند بهتر میشود( حذف ویژگی انتخاب شده )در مرحله قبل( از مجموعه ویژگیهای انتخابی ادامه کار تا یافتن تعداد ویژگی موردنظر 11
روش پوشه )Wrapper( تغییر یا ترکیب SFS و SBS )GSFS( تعمیم یافته SFS تا وقتی که تعدآد n-k ویژگی باقی مانده آست تمام زیرمجموعههای k تای ی آز ویژگیها رآ آرزیابی کن PTA(I,R): plus I and take away R در هر مرحله SFS رآ I بار و SBS رآ Rبار آجرآ کن جستجوی شناوری )Floating( تا زمانی که زیرمجموعه مناسب تری آز زیرمجموعه فعلی )با آندآزه یکسان( پیدآ نشده آست یک بار SFS و یک بار SBS رآ آجرآ کن. 12
روش فیلتر :)Filter( معیارهاي انتخاب ويژگي 1- میزان اهمیت ویژگی و توان در ایجاد تمایز بین دستههای مختلف 2- مستقل بودن ویژگی ها X 1 تمایز بیشتری ایجاد می کند تمایز یکسان X 1 و X 2 اما دو ویژگی وابستهاند استفاده از یکی یا هردو معیار انتخاب یک ویژگی )Univariate( ارزیابی یا چند ویژگی )Multivariate( در هر لحظه برای 13
معیارهاي انتخاب ويژگي )میزان اهمیت ويژگي(... معیارهای مبتنی بر اطالعات ویژگی A انتخاب میشود اگر Gain(A)>Gain(B) مقدار Gain میتواند با روشهای مختلفی محاسبه شود Information Gain Gain Ratio Gini Index معیارهای آماری برای دادههای پیوسته با توزیع گاوسی روش T-test )دو دسته( و ANOVA )چند دسته( برای دادههای پیوسته با توزیع غیرگاوسی روش Mann-Whitney )دو دسته( و Kruskal-Wallis )چند دسته( برای دادههای طبقهای )Categorical( دادههایی با مقادیر محدود و مشخص مانند گروه خونی- Chi-Square روش 14
معیارهاي انتخاب ويژگي )میزان اهمیت ويژگي(: آزمون آماري تي )T-test( ارزیابی میزان یکسان بودن یا نبودن میانگین نمونه ای با میانگین واقعی یک ویژگی را انتخاب می کنیم ویژگیای که میانگین آن برای دو دسته مختلف به اندازه کافی متفاوت باشد )فاصله میانگین ویژگی انتخاب شده در دو دسته مختلف زیاد باشد( ویژگی x: ij ویژگی iام از دسته jام با میانگین m ij و انحراف معیار s ij فرض صفر) hypothesis H(: 0 :Null میانگین ویژگی تمایزی بین دو دسته iو k ایجاد نمیکند و میانگین m ij و m ik برابرند برای نشان دادن خوب بودن ویژگی باید این فرض را رد کنیم آماره زیر را محاسبه کنید تعداد کل بردارهای ویژگی )نمونهها( در دسته k تابع گاما این آماره داری توزیع t-student است درجه آزادی- برابر با یکی کمتر از تعداد نمونهها 15
معیارهاي انتخاب ويژگي )میزان اهمیت ويژگي(: آزمون آماري تي:-الگوريتم گام اول: محاسبه آماره درجه آزادی این آماره )پارامتر v( برابر است با به نزدیک ترین عدد صحیح گرد کنید ( زا گام دوم: محاسبه و روی جدول مقادیر توزیع( محاسبه مقدار توزیع t-student را به ازای درجه آزادی df و با میزان اطمینان α-1 باید حداقل %95 باشد یعنی 0.05 α( و با t مقایسه کنید )میزان اطمینان گام سوم: اگر بود آنگاه فرض بودن برابر m ij و m ik رد نمی شود و ویژگی انتخابی مناسب نیست 16
معیارهاي انتخاب ويژگي )میزان اهمیت ويژگي(: آزمون آماري تي: مثال در شکل روبرو آیا x 1 ویژگی مناسبی است داریم میانگین X1 در دسته 1 چون مقدار حاصل در ناحیه اطمینان نیست فرض صفر رد نمی شود و x 1 ویژگی مناسبی نیست ویژگی x 2 چطور فرض صفر رد می شود و x 2 ویژگی مناسبی است 17
)correlation( معیارهاي انتخاب ويژگي )مستقل بودن(... در صورت وابسته بودن دو ویژگی یکی از آنها اضافی است محاسبه مستقل بودن )independence( بر اساس همبستگی Independence 2 = 1 Correlation 2 تقریبی است! ضریب همبستگی افزایش x منجر به کاهش y میشود افزایش x منجر به افزایش y میشود 18
معیارهاي انتخاب ويژگي )مستقل بودن(... مستقل آیا همبسته نبودن استقالل را نتیجه میدهد محاسبه هم بستگی برای داده های پیوسته با توزیع گاوسی )Pearson( ضریب همبستگی پیرسون برای دادههای پیوسته با توزیع غیرگاوسی یا دادههای ترتیبی )Spearman( ضریب همبستگی آسپیرمن برای دادههای طبقهای )Pearson contingency coefficient( ضریب تصادفی پیرسون 19
معیارهاي انتخاب ويژگي )مستقل بودن(: ضريب هم بستگي... پیرسون معیاری برای سنجش میزان همبستگی خطی بین دو متغیر )ویژگی( مقدار ضریب بین 1- تا 1 است مقدار 1 و 1 هب- معنای همبستگی مثبت و منفی کامل و مقدار صفر به معنی عدم همبستگی است برای دو ویژگی X و Y میانگین X انحراف معیار X ویژگی هایی بهترند که مقدار همبستگی آنها زیاد نباشد 20
معیارهاي انتخاب ويژگي )مستقل بودن(: ضريب همبستگي پیرسون... 21
روش فیلتر مزیت: روشی سریع و بهینه عیب: ممکن است یک ویژگی به تنهایی مناسب نباشد اما در ترکیب با سایر ویژگیها عملکرد خوبی داشته باشد مثال: در محاسبه شباهت دو متن یک کلمه )به عنوان یک ویژگی( به تنهایی میتواند از لیست ویژگیها حذف شود اما وقتی در متن است اثرگذار است روش پوشه عیب: بسیار زمانبر است و در بسیاری از کاربردها بررسی تمام ترکیبهای ویژگیها عملی نیست برای N ویژگی 2 N زیرمجموعه وجود دارد 22
استخراج تعدادي )کمتري( ويژگي از روي ويژگيهاي فعلي استفاده از تبدیلها )ی خطی و غیرخطی( مثال 23
تابع تبديل مناسب براي استخراج ويژگي ها معموال غیرخطي است اما يافتن تبديل خطي ساده تر است تبديل هاي خطي تحلیل اجزای اصلی تحلیل تفکیک خطی تحلیل تفکیک چندگانه تحلیل اجزای مستقل تحلیل عاملی مقیاس سازی چندبعدی )PCA: Principal Component Analysis( )LDA: Linear Discriminant Analysis( )MDA: Multiple Discriminant Analysis( )ICA: Independent Component Analysis( )Factor Analysis( )Multidimensional Scaling( 24
تبديل هاي غیرخطي تحلیل اجزای اصلی هسته PCA( )Kernel ISOMAP تعبیه خطی محلی )LLE: Locally Linear Embedding( )MLP( شبکه هاي عصبي شبکههای پیشرو مانند پرسپترون چند الیه ایجاد تبدیل خطی/غیرخطی شبکه خودسازمان ده )SOM( خوشه بندی 25
دسته بندي روش ها از نگاهي ديگر باناظر تحلیل تفکیک خطی Analysis( )LDA: Linear Discriminant تحلیل تفکیک چندگانه Analysis( )MDA: Multiple Discriminant بدون ناظر شبکه خودسازمان ده )SOM( تحلیل اجزای اصلی Analysis( )PCA: Principal Component تعبیه خطی محلی Embedding( )LLE: Locally Linear 26
ايده: تبديل خطي براي کاهش تعداد ويژگيها + بیشترين کاهش + بیشینه دقت )عدم حذف ويژگيهاي اصلي( معرفی توسط پیرسون )Pearson( در 1901 و استفاده از آن در زمینه زیستی اسامي ديگر تبدیل بردارهای ویژه )Eigenvectors( تبدیل هتلینگ transform( )Hotteling استفاده در روانشناسی در 1933 توسط هتلینگ برای تبدیل متغیرهای گسسته به ضرایبی غیرهمبسته تبدیل )KLT: Karhunen-Loeve Transform( KL استفاده توسط کارهانن در سال 1947 برای دادههای پیوسته و تعمیم آن در سال 1948 توسط الف تبديلي با کمینه میانگین مربعات خطا اثبات توسط کاشمن در سال 1954 27
T i x1 x2.. x n X. بعدی x i را در نظر بگیرید PCA عملکرد بردار ویژگی n میخواهیم تعداد ویژگیها را از n به d ویژگی کاهش بدهیم که d n بردار ویژگی x i را در ماتریس تبدیل T (d n) ضرب می کنیم ماتریس تبدیل n d :PCA Y i T X i ویژگیهای اولیه: n بعدی ویژگیهای جدید: d بعدی سوال: نحوه بدست آوردن تبدیل T 28
بدست آوردن ماتريس تبديل PCA... گام اول: با فرض داشتن Mبردار ویژگی n بعدی میانگین آنها را حساب کن گام دوم: همه ویژگی ها را مرکزی کن 1 M k 1 برای این کار میانگین هر ویژگی را از آن ویژگی کم کن μ x M X k یک بردار n بعدی X ( i ) X ( i ) ( i ), i 1,2,..., n k 1,2,..., M k k x گام سوم: ماتریس همبستگی ویژگیهای مرکزی شده )ماتریس کواریانس ویژگیهای اولیه( را محاسبه کن برای داده های حقیقی این ماتریس مربعی حقیقی و متقارن است M 1 T C [( X )( X ) ] x k k M k 1 یک ماتریس n*n 29
C x ماتریس کواریانس )Φ i ( بدست آوردن ماتريس تبديل. PCA.. گام چهارم: محاسبه مقادیر ویژه ( i λ( و بردارهای ویژه یک مقدار حقیقی یک بردار n بعدی C Φ Φ x i i i تعداد مقادیر ویژه و بردارهای ویژه برابر با n )به تعداد ابعاد بردار ویژگی( به علت حقیقی و متقارن بودن ماتریس کواریانس است مقادیر ویژه حقیقی و غیرصفر هستند بردارهای ویژه متعامد هستند پیدا کردن n بردار ویژه متعامد همیشه ممکن است میزان اهمیت هر بردار ویژه متناسب است با بزرگی مقدار ویژه متناظر مقدارویژه بزرگ تر=بردار ویژه با اهمیت بیشتر 30
PCA بدست آوردن ماتريس تبديل )λ i ( )Φ i ( گام چهارم: ساخت ماتریس تبدیل T از روی بردارهای ویژه و مقادیر ویژه بردار ویژه متناسب با Φ1 1 بزرگترین مقدار ویژه بردار ویژه متناسب با کوچک ترین مقدار ویژه Φ2 2.. T, ; 1 2... d... n Φd d.. Φ به بردارهای ویژه اجزای اصلی میگویند n n ماتریس تبدیل T یک ماتریس n n است برای کاهش بعد ( زا n به )d n فقط d سطر اول )متناسب با d بردار ویژه مهمتر( استفاده میشود 31
استفاده از تبديل PCA X k با ماتریس تبدیل T میتوان بردارهای ( X k و یا هر بردار تصادفی مثل Z را که همنوع و هماندازه بردارهای است( را به فضای جدید نگاشت و اجزای اصلی آنرا بدست آورد Y T.( Z μ ) T i i i zi Y Φ ( Z ) z اجزای اصلی جدید )محورهای جدید( عملکرد تبدیل T: نگاشت دادهها به فضایی جدید با محورهای اصلی متناظر با بردارهای ویژه )اجزای اصلی( محور اصلی اول به تنهایی قادر به جدا سازی دادههاست 32
Y T.( Z μ )... PCA خواص تبديل z تبدیل خطی است T 1 T T 1 T معکوس پذیر است و T میتوان ویژگیهای جدید را به فضای اولیه برگرداند: کاربرد در فشردهسازی و حذف نویز علت معکوسپذیر بودن: برای ماتریسی که سطرهای آن از بردارهای متعامد تشکیل شده داریم T T Z T. Y μ z پس X ناهمبسته کردن بردارهای نگاشت شده Y توسط این تبدیل μy E{ Y} بردارهای Yدارای میانگین صفر هستند 0 ماتریس کواریانس Y قطری با مقادیر برابر مقادیر ویژه ماتریس کواریانس 1 0.. 0 0. 2 T y x.... 1 2... n C T.C T.. 0 0.. 0 n تبدیل سفیدسازی )whitening( 33
... PCA خواص تبديل کمینه کردن خطای کاهش بعد )فشرده سازی( با کمینهسازی مربعات میانگین خطا در صورت عدم استفاده از همه اجزای اصلی )ماتریس تبدیل )n n و استفاده از d بردار ویژه مهمتر کاهش بعد )فشردهسازی( دارای خطا )lossy( خوهد بود خطای حاصل توسط PCA از هر تبدیل مشابهی کمتر است Y T X μ Xˆ T Y μ T ( d 1) ( d n).( ( n1) x ) ( n1) ( nd ). ( d 1) x 1/2 n d n ( ˆ ) i j 1 j 1 j d 1 e X Xˆ x x ms i i j j j مقدار خطا برابر است با مقدار خطا = جمع مقادیر ویژهای هستند که بردار ویژه متناظر آنها در ماتریس تبدیل حذف شده خطا برابر جمع (n-d) مقدار ویژه کوچکتر است == کمینه بودن خطا تبدیل به گونه ای داده ها را نگاشت می کند که خطای نگاشت کمینه باشد 34
... PCA خواص تبديل کمینه کردن خطای کاهش نگاشت محور نگاشت بهتر محوری است که در راستای واریانس بیشتر باشد نگاشت از دو بعد به یک بعد خطای نگاشت باال محور نامناسب برای نگاشت نگاشت از دو بعد به یک بعد خطای نگاشت کم محور مناسب برای نگاشت توزیع واریانس در راستای هر کدام از محورهای جدید متناظر با مقدار ویژه آن بردار هر چه مقادیر ویژه بزرگ تر باشند بردار ویژه متناظر دارای اهمیت بیشتری است V k n i1 k i واریانس محور جدید 35
... PCA خواص تبديل محور نگاشت مهمتر = محوری در راستای واریانس بیشتر سوال: نحوه تعیین مقدار d )چه تعداد ویژگی حذف شود ( 36
PCA خواص تبديل کاهش خطای نگاشت 37
تعیین مقدار d )تعداد ويژگي هاي جديد در حوزه )PCA استفاده از مقادیر ویژه متناسب با بردارهای ویژه با توجه به برابر بودن خطا با جمع (n-d) مقدار ویژه کوچکتر برای حفظ %99 از واریانس دادهها مقدار d را طوری تعیین میکنیم که d i 1 n i 1 i i 0.99 در برخی از کاربردها با تعداد ویژگیهای زیاد تعداد زیادی از آنها میتواند حذف شود( λهای i برابر صفر است )محور جدید 38
مشکل PCA )در دستهبندي( تبدیل PCA حفظ بیشترین مقدار واریانس دادهها برای نمایش داده ها بهینه شده است که الزاما به معنی مناسب بودن آن برای دسته بندی نیست بستگی به جهت بیشترین واریانس داده ها دارد مثال: واریانس دو دسته در یک جهت است اثر منفی تبدیل در دستهبندی 39
رابطه PCA و SVD: Singular Value Decomposition PCAحالت خاصی از SVD است قضیه: اگر ماتریس مربعی n*n مانند C حقیقی و متقاورن ( T )C=C باشد آنگاه داریم T ( nn) ( nn). ( nn). ( nn) C Φ Λ Φ ماتریس قطری با مقادیر ماتریس بردارهای ویژه C ویژه C در قطر اصلی Λ ( nn) 1 0.. 0 0 2...... 0 0.. 0 n T ( nm ) ( nr ). ( rr ). ( rm) C U Σ V تجزیه با SVD r برابر است با مرتبه )rank( ماتریس = C تعداد سطرها/ستوهای غیروابسته ماتریس U هم دارای ستونهای متعامد است ماتریس Σ قطری بوده و عناصر روی قطر اصلی مقادیر تکین value( )singular هستند )مرتب شده از بزرگ به کوجک( 40
درصد دقت تشخیص درس: بازشناسی آماری آلگو- آنتخاب و آستخرآج ویژگی مثال: کاهش تعداد ويژگيها در تشخیص گفتار: براي دادههاي تمیز کاهش ویژگیها از 36 افزایش 40 %ی سرعت به 25 خطا را افزایش نداده است 35.0 30.0 27.0 29.7 31.1 27.5 25.0 20.0 15.0 10.0 9.1 5.0 0.0 36 36 27 25 22 بعد از استفاده از تبدیل PCA تعداد ویژگی ها بدون تبدیل PCA 41
درصد دقت تشخیص درس: بازشناسی آماری آلگو- آنتخاب و آستخرآج ویژگی مثال: کاهش تعداد ويژگيها در تشخیص گفتار: براي دادههاي تمیز کاهش ویژگیها از 36 به 25 دقت را به میزان %22 افزایش داده است علت: حذف مولفههای نویزی کاهش ویژگی ها از 36 به = 25 افزایش 40 %ی سرعت 35.0 30.0 27.0 29.7 31.1 27.5 25.0 20.0 15.0 10.0 9.1 5.0 0.0 36 36 27 25 22 بعد از استفاده از تبدیل PCA تعداد ویژگی ها 42
SVD و PCA کاربردهاي )مهم( در پردازش متن- (Indexing) LSA(I): Latent Semantic Analysis الگوریتم PageRank گوگل در فشردهسازی تصویر- تبدیل DCT: Discrete Cosine Transform JPEG استفاده میشود که در تبدیل DCT نزدیکترین تقریب PCA است که وابسته به داده نیست مصورسازی دادهها Visualization( )Data نگاشت داده ها به فضای دو بعدی 43
PCA( غیرخطي( PCA استفاده از شبکه عصبي به عنوان تابع فعالسازی = غیرخطی )سیگموید( X u X f 1 f 2 f 3 f 4 h (x) تابع فعالسازی خطی )همانی( الیه bottleneck h (u) معکوس تبدیل اعمال تبدیل 44
اسم ديگر: تحلیل تفکیک فیشر ايده اصلي )FDA: Fisher Discriminant Analysis( ویژگیها به گونهای نگاشت میشوند که دستههای مختلف بیشتر از هم تفکیک شوند نگاشت از دو بعد به یک بعد تفکیک پذیری بیشتر دسته ها محور مناسب برای نگاشت نگاشت از دو بعد به یک بعد تفکیک پذیری کمتر دسته ها محور نامناسب برای نگاشت 45
... LDA عملکرد هدف: نگاشت ویژگی ها به گونه ای که دسته های مختلف از هم تفکیک بیشتری شوند فرض کنید دو دسته با ویژگیهای n بعدی داریم تعداد نمونه های دسته اول n 1 نمونه و تعداد نمونه های دسته دوم است n 2 نگاشت بردار x i بر روی محور v برابر است با v t x i مقدار v t x i )یک عدد( برابر است با فاصله نگاشت x i از مرکز است معیار مورد نیاز برای تفکیک بیشینه بین دو کالس اگر μ 1 میانگین نمونههای دسته اول و μ 2 میانگین نمونههای دسته دوم باشد و شده آنها باشد فاصله بین دو مقدار میانگین نگاشت شده 1 μ 1 - μ معیار مناسبی است و μ 1 μ 1 معادل نگاشت 46
... LDA عملکرد اما در نظر گرفتن میانگین به تنهایی کافی نیست داریم اما نگاشت روی محور عمودی بهتر است چون تفکیک بیشتری بین دسته ها آیجاد کرده آست بنابراین باید واریانس داده ها هم در نظر گرفته شود. فاصله میانگین ها به مقدار واریانس داده ها نرمال شود 47
LDA عملکرد معیار پراکندگی :)scatter( مقدار واریانس ضرب در تعداد نمونهها مشابه واریانس بیانگر میزان پراکندگی داده ها در اطراف میانگین است هدف LDA بیشینه کردن معیار زیر است میانگین ها بیشترین فاصله را از همدیگر داشته باشند پراکندگی آنها کمترین مقدار باشد 48
1 i 1... بدست اوردن LDA باید J را به عنوان تابعی از v بنویسیم و آن را بیشینه کنیم 1 i 1 مشتق گرفتن و برابر صفر قرار دادن t t t t t t t t i i i i 2 1 1 1 1 1 x C x C S v x v x v x v v x v i t ( i ) ( i ) i i t t t t t 1 1 1 1 1 x C x C v x v x v x x v v S v i داریم S 2 t 2 2 و v S v 2 2 t 2 t 2 t 1 2 1 2 S S v S v v S v v S v W بنا بر ای ن )within( که پراکندگی درون دسته ای است 2 2 1 2 S S S W 49
2 t t t t t 1 2 1 2 1 2 1 2 2 v v v v v S v بدست اوردن. LDA.. B از طرفی داریم )between( که پراکندگی بین دسته ای است S B 1 2 1 2 t این مقدار بیانگر پراکندگی داده های دو دسته در بین میانگین ها قبل از نگاشت است بنابراین داریم بیشیه کردن J نسبت به v: مشتق گرفتن و برابر صفر قرار دادن 50
t v S v S v t v S v S v 0 W B B W LDA بدست اوردن پس باید داریم 1 W S S v v S Bv B دارای معکوس باشد رابطه فوق به رابطه مقدار ویژه تبدیل می شود t v 1 2 1 2 1 2 1 S v S v v S B 1 2 W W 1 2 اگر S W S B v در جهت یکسانی با μ 1 -μ 2 است چون W 1 v S 1 2 اما اندازه v مهم نیست پس 51
n2 است LDA الگوريتم فرض: دو دسته با ویژگی های nبعدی تعداد نمونههای دسته اول n1 نمونه و تعداد نمونههای دسته دوم S 2 S 1 μ 2 گام اول: میانگین نمونه های دو دسته μ 1 و و پراکندگی آنها و را حساب کنید 2 2 1 2 S S S W )within( گام دوم: مقدار پراکندگی درون دسته ای را حساب کن W 1 v S 1 2 گام سوم: محاسبه بردار نگاشت v y i = v t x i گام چهارم: نگاشت داده ها )به فضای یک بعدی( با بردار نگاشت بدست آمده نگاشت داده n بعدی به داده یک بعدی! 52
... مثال- دو دسته دو بعدي دسته اول 5 نمونه دو بعدی: (5,5)} (4,5), (3,3), (2,3), ={(1,2), 1 C دسته دوم 6 نمونه دو بعدی: (6,5)} (5,3), (3,2), (3,1), (2,1), ={(1,0), 2 C S 2 S 1 μ 2 گام اول: میانگین نمونه های دو دسته μ 1 و و پراکندگی آنها و را حساب کنید [3.0 3.6] 1 [3.3 1.6] 2 S S 10.0 8.0 (5 1) ( ) 8.0 7.2 2 1 Cov C1 17.3 10.6 (6 1) ( ) 10.6 7.3 2 2 Cov C 2 گام دوم: مقدار پراکندگی درون دستهای )within( را حساب کن 2 2 27.3 18.6 1 0.29 0.38 SW S1 S 2 S W 18.6 14.5 0.38 0.56 53
مثال- دو دسته دو بعدي... محاسبه بردار نگاشت v 1 0.29 0.38 3.0 3.3 0.84 v SW 1 2 0.38 0.56 3.6 1.6 1.21 گام سوم: y i = v t x i گام چهارم: نگاشت داده ها به فضای یک بعدی با بردار نگاشت بدست آمده t 1 2 3 4 5 y1 v x 1... x 5 0.84 1.21 1.58 1.95 1.11 2.70 1.86 2 3 3 5 5 t 1 2 3 3 5 6 y 2 v x 1... x 6 0.84 1.21 0.84 0.47 1.31 0.09 0.56 1.40 0 1 1 2 3 6 54
مثال- دو دسته دو بعدي نکته: محل دقیق خط نگاشت مهم نیست جهت آن مهم است 55
حالت کلي LDA براي C دسته تحلیل تفکیک چندگانه Analysis( )MDA: Multiple Discriminant n i فرض: C دسته با ویژگیهای nبعدی تعداد نمونههای دسته i ما = تعداد کل نمونهها = n... الگوريتم گام اول: محاسبه میانگین نمونههای هردسته μ i میانگین کل دادهها μ i 1 n i x i C i x i 1 1 x n All x i C n i i i n i 1 گام دوم: محاسبه ماتریس پراکندگی درون دسته ای S W و بین دسته ای S B C t SW S i x k i x k i S n B i i i i 1 C C i 1 i 1 x k C i t 56
الگوريتم... نحوه محاسبه ماتریس پراکندگی بین دسته ای S B )گام دوم(: داریم: کل پراکندگی داده ها = پراکندگی بین دسته ای و پراکندگی درون دسته ای S S S T W B S B میتوان نوشت t T i i i i i i i i All x i 1 x C C i i i t x x i i i i i i i 1 x C i 1 x C i i i i C W i i i i 1 C S x x x x S n t C t t 57
... الگوريتم گام سوم: محاسبه بردار نگاشت v t det تابع هدف v S Bv Jv ( ) t det v S v معادل حل مساله مقدار ویژه تعمیم یافته یافتن مقادیر و بردارهای ویژه برای این رابطه S v B S v W در صورت معکوس پذیر بودن S W رابطه فوق به مساله مقدار ویژه عادی تبدیل می شود ماتریس v از کنار هم قراردادن بردارهای ویژه بدست آمده حاصل میشود: هر سطر ماتریس v معادل یکی از بردارهای ویژه است. بردارهای ویژه به ترتیب اهمیت )مقادیر ویژه( چیده میشوند. ماتریس v حاصل در رابطه فوق یکتا نیست )میتواند مقیاس و زاویه آن عوض شود( اما این در دستهبندی تاثیرگذار نیست. ماتریس S B حداکثر دارای مرتبه )rank( برابر با 1-C است W مرتبه: حداکثر تعداد سطرها)ستون ها(ی مستقل خطی ماتریس 58
الگوريتم y i = v t x i گام چهارم: نگاشت داده ها با ماتریس نگاشت بدست آمده ماتریس v حاصل دارای اندازه n (C-1) است یعنی تبدیل فوق بردار n بعدی را حداکثر به فضای ( C-1 )بعدی نگاشت میکند باید ) n =ابعاد n C ویژگیها و C =تعداد دستهها( میتوان کاهش بعد از n را به 1-C,,2,1 داشت 59
مشکالت کاهش بعد را حداکثر تا میتوان تا 1-C داشت )بر خالف )PCA برای دادههای پیچیده حتی نگاشت به بهترین سطر هم ممکن است دادهها را غیرقابل تفکیک کند مثال 2 عدم موفقیت در موارد زیر اگر J(v)=0 باشد: میانگین دادهها برابر باشد )تفکیک فقط در واریانس است( مثال 1 PCA موفق عمل میکند PCA هم ناموفق است اگر J(v) بزرگ باشد: دادهها بعد از نگاشت همپوشانی زیادی دارند در آین حالت PCA هم موفق نیست 60
تبديل PCA بدون ناظر است استفاده از واریانس کل دادهها )به کارگیری ماتریس پراکندگی کل( تبديل LDA با ناظر است استفاده از نسبت پراکندگی بین دستهها به پراکندگی درون دستهها در شرايط زير PCA بهتر از LDA اگر تعداد نمونه های هر دسته کم باشد است ماتریس پراکندگی داده ها برای هر دسته به خوبی تخمین زده نمی شود اگر نمونه برداری صورت گرفته برای نمونه های آموزش به صورت غیریکنواخت از کل داده ها صورت گرفته باشد. 61